#gradiente de entrenamiento

Sesgo de distancia de representación en modelos de recompensa

El sesgo de distancia en la pérdida BT distorsiona el aprendizaje de modelos de recompensa. NormBT lo corrige con normalización adaptativa, mejorando la precisión hasta un 5%.

2026-06-10 · 2 min